Large Language Model
ChatGPT
ChatGPTの理解に必要な項目整理
大量のデータから学習することで、下流の広範なタスクに対して高い汎化性能を獲得したモデル
巨大化し、複雑なタスクへの応用が可能に
微調整によって人間らしさを学習し始める
基盤モデル:GPT-3, CLIP, DALL-E, MT-NLG, PaLM, Flamingo, Unified-IO, Gato, Parti
scaling law
Transformerの性能は、計算リソース、データセットサイズ、パラメータ数に依存する
ネットワークをどう繋ぐかは些細な話
Chinchilla
特定の計算資源が与えられた時のモデルのパラメータ数と学習データ数を割り出して、さらにその性能が推定できる
マジ??
https://twitter.com/bioshok3/status/1625882159004418049?s=20
冷静に考えて、今の言語モデル
1 微調整用、強化学習用、評価用データセットの自動生成
2 万能チューリングマシンをシミュレート可能
3 勾配降下法とインコンテキスト学習は同値
みたいな論文が去年の冬くらいからバシバシ出ててやばいと思う。
ローカルLLM
AI・潜在空間の衝撃
https://www.youtube.com/watch?v=7ffwRDZRtq4
LLaMA: Open and Efficient Foundation Language Models
https://www.inoichan.com/entry/2023/02/28/_LLaMA%3A_Open_and_Efficient_Foundation_Language_Models
LLMがなぜ大事なのか?経営者の視点で考える波の待ち受け方
https://comemo.nikkei.com/n/nf3132b57539c
複数の言語モデルを試したり比較できるPlayground 「OpenPlayground」
https://twitter.com/Yamkaz/status/1633975805222215680?s=20
実践!大規模言語モデル / 1000億パラメータ越えモデルを動かすには?
https://zenn.dev/turing_motors/articles/26e1f1be50c0b5
In-Context Instruction Learning (ICIL)
https://twitter.com/johnjnay/status/1630766018397085696?s=20
これ僕も気になっている。観測範囲で今のLLMの限界を本当の意味?で指摘した論文や考察を見たことがあまりない
https://twitter.com/bioshok3/status/1631650164715978753?s=20
GPT3で次単語予測だけでこれだけ言語を理解できるようになるっていうのは、言語学にもとても大きい示唆になるんじゃないかっていう気がする。
https://twitter.com/hyasssy/status/1619156135768104960?s=20
https://twitter.com/hir_kurashige/status/1501223211568345088?s=20
音声ナラティブを聴いているときのヒトECoG活動をGPT-2の応答と比較した研究。
①脳でも次単語予測が行われている
②単語の出現前に不確実性をコードする活動が、出現後にサプライズ(予測誤差)をコードする活動が現れる
③文脈依存の単語埋め込みが行われている
とのこと。
Poe
https://gpt3demo.com/apps/poe-by-quora
MathPrompter: a technique that improves LLM performance on mathematical reasoning problems.
https://twitter.com/omarsar0/status/1634556000735830020?s=20
LLMs are great at understanding text
https://twitter.com/hwchase17/status/1634606661137731584?s=20
open-source ChatGPT alternative is now available
https://twitter.com/_akhaliq/status/1634923410169159680?s=20
OpenAI APIモデルまとめ
https://note.com/npaka/n/nd34d44628f10
LLMがなぜ完全自動運転に必要なのか
https://note.com/issei_y/n/n3f69256abc1c
https://twitter.com/KawamataRyo/status/1635233927593103361?s=20
An Overview of Language Models
Nice overview of language models covering recent developments and future directions. It also covers topics like linguistic units, structures, training methods, evaluation, and applications.
https://twitter.com/johnjnay/status/1635315780685565952?s=20
"Reliable AI markup Language" Adds Structure, Type & Quality Guarantees to LLMs
-Pydantic-style validation of LLM output
-Enforces structure & type guarantees
-Dialect of XML
When validations fail:
-Re-asks LLM
-Filters outputs
-Or fixes outputs
https://twitter.com/hillbig/status/1635359284249919488?s=20
巨大言語モデルでプロンプトで本文中学習(in-context learning)する際、言語モデル学習データ由来の事前知識を本文中学習で上書きする能力、事前知識に無い抽象的な入出力関係を学習する能力、高次元入力を線形分類する能力は大きいモデルで初めて創発される。
https://twitter.com/johnjnay/status/1635637398057934848?s=20
A New LLM Pre-training Paradigm
1) Training objective aligns predictions of
left-to-right LM
&
right-to-left LM
trained in reverse
2) Bidirectional inference enables both to meet in middle
-Outperforms strong baselines in code & lang generation
https://twitter.com/santa128bit/status/1635571630658449409?s=20
中国語特化でChatGPT同様にRLHFなどで強化されたモデルが出てきた。すでに人間の好みにかなり近い応答を生成できるようになっているとのこと。
英語圏AI界隈で話されてる哲学概念(ワルイージ効果、ロコのバジリスク、ペーパークリップ最大化AI、ショゴスに仮面)をまとめた解説があった。有難い。
https://twitter.com/needle/status/1635602117019996168?s=20
Building A Virtual Machine inside ChatGPT
https://www.engraved.blog/building-a-virtual-machine-inside/
AIの中にマルチバース
AIのメモリを与えると、万能チューリングモデル
AIによるAIの改善
プロンプトエンジニアリング = 微調整を仮説, 勾配効果
メタラーニングをプロンプトだけで行える可能性
メタバース = AI?
https://twitter.com/johnjnay/status/1637843926840164353?s=20
Customizing LLMs:
-Supervised fine-tuning on your tasks
-Self-supervised learning (SSL) on your text
-RL w/ your reward model (RM)
-Filter high-temp outputs w/ RM
-Conditional SSL on RM-scored text
-Prompt w/ context
-Give it access to your tools
-Train (soft) parts of prompts
https://twitter.com/johnjnay/status/1637807590481559553?s=20
Potential Massive Labor Market Impact of LLMs
-Researchers assess job tasks based on exposure to GPT capabilities
-80% of U.S. workforce may have 10%+ of their tasks affected
-19% may have 50%+ tasks impacted
-Higher-income jobs are most exposed
https://twitter.com/hillbig/status/1637192435511218180?s=20
LLMがこのようなことができる(もしくはできない)ことを説明する研究は既に多くでていると思います。LLMが次の単語予測タスクを目標とした自己教師あり学習を介して様々な能力を獲得でき、特に言語については言語自体が持つ構造(特に構成性)も利用していること、またin-context learningが自己注意機構を利用したメタ学習によって実現していることがわかっており、諸現象の全てではないですが重要な部分の多くはそれを説明できる材料はでていると思います。逆にhallucinationが起きる原因も検討がついています。もちろん未解決な問題もあります。
いえいえ、ただ言語モデルを使ってそういう実験できるようになってわかってきたのはこの一年、半年の話です。また、実際よくわかってないことも多いです。幻覚については大きく記憶の汚染(破滅的忘却と同じ)と個別の汎化の制御ができてない(ある場合は汎化してよくて、ある場合は汎化すると間違える)ことが問題で、表現方法と記憶の固定方法の両面で改善が必要だと思います。さらにモデルサイズを大きくするだけで解消するか(少なくとも記憶の汚染は防げる)、rlhfでいけるか(少なくとも確信度はあたっているので、わかっていない場合にわかってないと言わせるのはできそう)、記憶の新手法が必要か(疎にするとか)はわかってないです。ただ幻覚は2回聞くと間違っていることに気づくことも多いのでプロンプト改善でもかなりいけそうなきはします
岡野原さんかっけ〜〜
https://twitter.com/kazunori_279/status/1637215827715067906?s=20
この辺りを詳解したブログか書籍を読みたい。。 "特に言語については言語自体が持つ構造(特に構成性)も利用していること、またin-context learningが自己注意機構を利用したメタ学習によって実現していることがわかっており"
https://twitter.com/hayashiyus/status/1637041887218642945?s=20
ChatGPTなどのLLMの学習には,人間のフィードバックに基づいて出力を改善していく強化学習プロセス RLHF が含まれている.そのため,これらLLMを人間のフィードバックを学習プロセスに含まない他の言語モデルと同列にして評価することはできない,という批判があった
ところが,昨年末に公開された論文 "Constitutional AI: Harmlessness from AI Feedback" で,人間によるラベル付けや監督なしに,自己改善を通じて有害な出力を回避するAIアシスタントを訓練していく方法を提案された.そして,このAIアシスタントによるフィードバックに基づいて出力を改善していく強化学習プロセス RLAIF が "harmlessness versus helpfulness Elo scores" という指標を使った場合に RLHF よりも優れていることが示された
すべての質問に「わからない」と答えるAIアシスタントは無害だが,もちろんまったく役に立たない.その逆に,すべての質問に対して自信たっぷりに答えるAIアシスタントは有用かもしれないが,ときどき大嘘をつくかもしれない.つまり,AIアシスタントには「有害さ」と「有用さ」という2つの評価軸についてのトレードオフ関係があり,この論文で提案された強化学習プロセスは,むしろ人間によるラベル付けや監督を使わない方が「有害さ」と「有用さ」のバランスが取れたモデルを開発できる可能性を示した
https://twitter.com/Quebec_AI/status/1636521672227291136?s=20
CS324 - Large Language Models
https://stanford-cs324.github.io/winter2022/
https://twitter.com/ML_deep/status/1636520577044480003?s=20
んー、難しい。疑問点が
1.学習データが自然言語言語なのだから、そのように作られたモデルにとってクエリが自然言語なのはベストに見えるけど、実は違ったりする?
2.そもそも学習時に自然言語(文章)じゃない何かを与える形式が良いかも?
と、スコープが推論のみなのか学習まで及ぶのか
ChatGPT 関係で自分が根源的にわかってないのは「クエリが自然言語であることが実は本質的なのか」なんですよね。なんかの部品として使うなら、も少し機械的なクエリを組みたくならんか、と思うのだけど、これは自然言語モデルに対するクエリは自然言語でやるのが実は最も効率的だ、という話なのか
https://twitter.com/umiyuki_ai/status/1636545456124854273?s=20
学生はLLMについて何を研究すればいいか?やる事はいくらでもある ①プロンプトの研究。GPT-4だとどういうプロンプトがイケるのか、よーいドンのフロンティアだ ②評価の研究。既存のベンチマークはLLMの性能のブチ上がりについていけてないから新しいベンチマークを作ろう。言語モデルを一般的に評価する方法は未解決の問題 ③人間がLLMをどんなふうに使ってるかの研究 ④LLMの安全性、アラインメントの研究 ⑤インコンテキストラーニングやCoTが機能する理由は解明されてないから研究する ⑥創発能力の研究。何故創発能力が起きるのか?今後どんな創発能力が増えていくか予測できないか?小パラメータモデルにも創発能力を持たせる方法は? →RT
https://twitter.com/santa128bit/status/1636545132995686401?s=20
自動的な多段階推論とツール利用を組み合わせることで、few-shot promptingとautomatic CoTを大幅に超える改善ができたとする論文。GitHubもあるので試せそう。
https://twitter.com/hyuki/status/1636537028623073281?s=20
#ChatGPT と非常に興味深い対話を行ったので、みなさんぜひリンク先の文章をお読みください。ちょっと長いですが、最後まで順番にお読みいただくと驚きます。私は驚きました。
https://twitter.com/shion_honda/status/1632208104510324736?s=20
Emergent Abilities of LLMs Wei+, 2022, TMLR
LLMを一定以上のFLOPsで事前学習させると下記2つの能力が”創発”するという現象を報告したサーベイ。
- few-shot promptingにおける非連続な精度向上
- 新たなprompting戦略の獲得(例:CoT、instruction tuning)
大規模言語モデルの脅威と驚異
https://speakerdeck.com/chokkan/20230327_riken_llm
Can LLMs Critique and Iterate on Their Own Outputs?
https://evjang.com/2023/03/26/self-reflection.html
Self-critiquing models for assisting human evaluators
https://arxiv.org/abs/2206.05802
ChatGPTのプロンプトエンジニアリングはとても「変なもの」。PKSHAと東大・松尾教授が語る
https://pc.watch.impress.co.jp/docs/news/1491102.html
BERT以降の事前学習済みモデルのトレンドと主要モデルを紹介! Part 1 学習方法編
https://elyza-inc.hatenablog.com/entry/2021/03/25/160727#:~:text=In-context%20Learningとは,で学習することです%E3%80%82
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond
https://arxiv.org/abs/2304.13712
A Unified Framework for Learned Sparse Retrieval
https://speakerdeck.com/koheishinden/ir-reading-2023-spring?slide=4
Accelerating Learned Sparse Indexes Via Term Impact Decomposition
https://speakerdeck.com/ynakano/irreading2023spring-accelerating-learned-sparse-indexes?slide=3
Personality Traits in Large Language Models
https://arxiv.org/abs/2307.00184
GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り
https://blog.brainpad.co.jp/entry/2023/06/05/153034
神サーベイ論文
https://arxiv.org/abs/2303.18223
leaderboard
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
Salesforce Introduces XGen-7B, A Large Language Model With Longer Context Support
https://www.forbes.com/sites/janakirammsv/2023/07/03/salesforce-introduces-xgen-7b-a-large-language-model-with-longer-context-support/?sh=3d3db5325889
LLM開発
https://github.com/moekidev/llmdev.jp/
最近のLLM比較
https://twitter.com/Saboo_Shubham_/status/1680459346046492672?s=20
LLM
Transformers
ElMo
BERT
GPT-2
Farseq
RoBERTa
Megatron-LM
Turing-NLG
TS
GPT-3
Scaling Laws
Wu Dao
LaMDA
MT-NLG
Github Copilot
Jurassic
Gopher
InstructGPT
Chinchilla
PaLM
OPT
Godel
YaLM
BLOOM
ChatGPT
GPT4
BARD
Bing Chat
"Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond"
https://arxiv.org/pdf/2304.13712
Large Language Models as Markov Chains
https://arxiv.org/abs/2410.02724
ミルクボーイのネタでGPT-3をファインチューニングしてみた (1) ~入門編~
https://qiita.com/wt1113/items/41196237d234dba7660f
GPT3のfine tuning試してみた
https://blog.jbs.co.jp/entry/2023/02/22/154116
ファインチューニングにより精度向上するか?
https://www.macnica.co.jp/business/ai/blog/142043/
LLMのFine-Tuning手法まとめ
https://qiita.com/mshinoda88/items/fc562ec6a84f45e89e70
LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ
https://note.com/npaka/n/n611057441e0e
Loraは弱者の戦略
LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models
https://arxiv.org/abs/2304.01933
ファインチューニングにより制度向上するのか?
https://www.macnica.co.jp/business/ai/blog/142043/
Unslothの覚書き
https://www.nogawanogawa.com/entry/unsloth